﻿INDICI STATISTICI DE START (Statistică descriptivă) 1 DETERMINAREA "VALORII CENTRALE" SAU A "TENDINŢEI CENTRALE" În exemplul analizat în cursul Colectia de date s-a putut constata cum datele tind să se concentreze parcă în jurul unei valori centrale; efectivele cele mai mari (16 şi 10, respectiv 9) corespund în acest caz claselor situate la mijlocul şirului Acest aspect îl întâlnim destul de frecvent în cercetările sau experimentele psihologice În anumite situaţii, majoritatea rezultatelor pot să graviteze fie în partea dreaptă, fie în partea stângă a seriei de variaţie Se vorbeşte atunci de distribuţii asimetrice Exemplu: Principala problemă abordată a fost cuantificarea (măsurarea) nivelului de stres profesional autoevaluat de angajaţii care au fost selectaţi să participe la programul de evaluare organizaţională Pentru evaluarea organizaţională a fost folosită Scala de stres profesional, denumită Chestionarul MHPSS (surse de tensiune la locul de muncă) adaptat în româneşte de I LUPU după D Cushway(1996) Chestionarul conţine 42 itemi cu răspuns tip Likert, în 4 ancore (de la 0 la 3) La cotarea chestionarului se pot obţine un scor total de stres şi 7 scoruri distincte pentru fiecare scală a chestionarului: a solicitări profesionale a dificultăţi în relaţiile cu clienţii a probleme organizatorice a relaţii conflictuale cu colegii a insuficienţa resurselor materiale şi umane a dubii profesionale a conflicte generate de climatul familial Scorul total, pe întreaga scală, poate lua valori cuprinse între 0-126, iar scorurile pe cele 7 scale pot lua valori între 0-18 Scorurile mari semnifică stres profesional de nivel mai ridicat Diagramele de mai jos evidenţiază intensitatea si distribuţia nivelului stresului profesional total şi pe subfactori la un departament evaluat al organizaţiei cercetate Inspectarea diagramelor de mai jos evidenţiază tendinţa distribuţiilor asimetrice a nivelelor de stres in organizaţie, cu excepţia diagramei 5 care are un aspect aproape simetric Diagramele nivelurilor de stres profesional total şi pe subfactori sunt prezentate în figurile de mai jos: EMBED StaticEnhancedMetafile Figura 1 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional total EMBED StaticEnhancedMetafile Figura 2 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional rezultat din solicitări profesionale EMBED StaticEnhancedMetafile Figura 3 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional rezultat din dificultăţi în relaţii cu clienţii EMBED StaticEnhancedMetafile Figura 4 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional rezultat din probleme organizatorice EMBED StaticEnhancedMetafile Figura 5 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional rezultat din relaţii conflictuale cu colegii EMBED StaticEnhancedMetafile Figura 6 Diagrama de distribuţie şi indicatorii statistici de start pentru variabila Stres professional rezultat din insuficienţa resurselor materiale şi umane Şi în aceste cazuri datele tind să graviteze în jurul unor valori Indicii prin care se determină în mod curent "tendinţa centrală" a rezultatelor sunt media, mediana şi modul Media, pe care o notăm cu m, nu este altceva decât suma valorilor, a datelor numerice, împărţită la numărul acestora Formula ei de definiţie este m=∑x/N, în care ∑ înseamnă "sumă de", x reprezintă valorile sau rezultatele individuale, iar N constituie efectivul grupei studiate În capitolele care urmează va fi vorba de formule de definiţie, necesare pentru înţelegerea unui indice statistic şi de formule de calcul, care indică procedurile statistice aplicabile pentru determinarea unui indice (media, abaterea standard, varianţa etc) Psihologul care beneficiază de serviciile unui calculator, dotat cu programe informatice pentru prelucrarea statistică a datelor, se poate dispensa de cunoaşterea şi stăpânirea formulelor de calcul Calculatorul oferă la cerere rezultatul calculului, indiferent de procedura aplicată Pentru exemplificare priveşte Figura 1 şi vei constata că la dreapta figurii vei gasi următoarele notaţii produse de programul statistic: * Std dev (abatere standard, notată cu ); * Mean (medie, notată cu ); * N (numărul de evenimente, subiecţi etc) Notaţiile produse de programul SPSS vor fi traduse în limba română şi după caz se vor folosi prescurtările de mai sus Ca exerciţiu preliminar, parcurgerea acestor tehnici este utilă pentru a ne da seama de transformarea ce se produce asupra datelor brute De asemenea, în absenţa serviciilor unui calculator sau a programelor informatice necesare, stăpânirea formulelor de calcul devine necesară, eventual în vederea improvizării unui program Revenind la formula de definiţie a mediei, întrucât N este totdeauna dat, urmează să stabilim procedee de calcul pentru ∑x (suma valorilor numerice), pe care o notăm cu T (iniţiala cuvântului "total") Când volumul datelor noastre este destul de restrâns, pentru a-l determina pe T facem o simplă adunare fără să mai grupăm valorile Metoda de calcul presupune distribuţie statistică dată, de regula cu aspect simetric sau aproape simetric Precizăm că, pentru a păstra notaţia acreditată de lucrări clasice în domeniu, cu f am notat efectivele şi nu frecvenţa relativă (proporţiile), raportată la întreg Vom avea trei coloane: valorile lui x grupate în clase, valorile centrale xk, şi efectivele corespunzătoare f Pentru calcularea lui T adăugăm o coloană în plus cu produsele fxxk Aşadar înmulţim fiecare valoare centrală xk cu efectivul corespunzător clasei respective, iar produsele înscrise în coloana fxxk le adunăm şi obţinem totalul T Ştiind că m = T/N, vom efectua împărţirea şi vom obţine media În exemplu nostru: m = 672/51 = 13,17 Tabelul1 Calcularea mediei x xk f fxxk 3-54312 6-87535 9-1110990 12-141316208 15-171610160 18-2019476 21-2322366 24-2625125 N = 51 T = 672 Aşa cum s-a precizat, media pune în evidenţă tendinţa centrală a rezultatelor constate într-o cercetare sau experienţă Prin calcularea mediei obţinem o măsură a nivelului mediu relativ la un eşantion studiat, fapt care permite apoi comparaţii între grupe În exemplul cercetării stresului în organizaţie se pot face următoarele aprecieri: 1 nivelul de stress total perceput de angajaţi este sub media teoretică a chestionarului (vezi fig 1 unde media este 26, ceea ce este sub 63 media teoretică a chestionarului), dar poate diferi între două sau mai multe compartimente; 1 nivelurile de stress pe scalele prezentate sunt şi ele sub mediile teoretice, dar se constată că sunt diferite şi deci se poate cerceta dacă diferenţele dintre sursele de stress diferă semnificativ statistic în favoarea uneia sau alteia dintre surse, chiar dacă mediile scalelor sunt sub media teoretică a chestionarului Exemplu cu privire la utilitatea mediei pentru studio de comparaţie (Extras din Lucrare de licenţă a absolventei Alina Bordea) Pentru verificarea celei de a doua ipoteze “Nivelul stresului perceput diferă în funcţie de vechimea bolii la pacienţii diagnosticaţi cu rinită alergică”, pacienţii diagnosticaţi cu rinită alergică au fost împărţiţi în două loturi Lotul 1 cu vechime a bolii mai mică de 10 ani şi lotul 2 cu o vechime mai mare de 10 ani Pentru compararea mediilor între cele două loturi am utilizat testul t (Student) pentru eşantioane independente, având ca variabilă dependentă stresul perceput, iar ca variabilă independentă vechimea bolii Acest instrument statistic ne ajută să comparăm mediile variabilelor obţinute de eşantioane independente şi să verificăm semnificaţia statistică a diferenţei între aceste medii Astfel putem compara nivelul stresului perceput de subiecţii care suferă de rinită alergică de mai puţin de 10 ani cu cel al subiecţilor care suferă de această afecţiune de mai mult de 10 ani Pentru început am efectuat reprezentarea grafică a diferenţei dintre medii la variabila stres perceput Figura 2 Reprezentarea grafică a mediilor celor două loturi pentru variabila stres Din figura 2 constatăm că există diferenţe între mediile stresului perceput la subiecţii care suferă de rinită alergică de mai puţin de 10 ani şi cei care suferă de această afecţiune de mai mult de 10 ani Pentru a calcula mărimea diferenţei dintre cele două loturi cu privire la stresul perceput s-a utilizat testul statistic t (Student) Tabelul 2 Compararea nivelului de stres perceput între cele două loturi de pacienţi diagnosticaţi cu rinită alergică Vechimea boliiN (45)Diferenţa între mediitp Stres de 10 ani23 2489,30 72,336,29 6,6716,978,960,000 Din tabelul 2 se constată o diferenţă semnificativă între cele două loturi în favoarea lotului 1, adică a bolnavilor de rinită alergică cu o vechime mai mică de 10 ani, diferenţă puternic semnificativă la un prag p < 0,01 Mediana este un alt indice al tendinţei centrale, care se utilizează mai ales când avem de-a face cu distribuţii asimetrice De exemplu, în cronometrări se înregistrează succesiv timpul de execuţie a unei operaţii de producţie la un muncitor; distribuţia empirică obţinută este, de regulă, asimetrică şi atunci se reţine mediana ca măsură a timpului de lucru Pentru a găsi mediana - pe care o notăm cu med - trebuie să aranjăm, în cazuri mai simple, toate datele (valorile) în ordine crescândă sau descrescândă Mediana este acea valoare care împarte şirul ordonat în două grupe egale ca număr Cu alte cuvinte, mediana se găseşte la mijlocul şirului: jumătate din valori se află deasupra, iar cealaltă jumătate dedesubt Locul sau rangul pe care îl ocupă mediana în şirul ordonat se detrmină cu ajutorul formulei (N+1)/2 Când valorile constituie un număr fără soţ (impare), mediana va corespunde determinantei din mijloc Astfel, în seria valorilor: 4, 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, med = 7 pentru că 7 este valoarea care împarte şirul ordonat exact în două Formula (N + 1)/2 ne indică locul pe care se găseşte mediana În cazul nostru med este valoarea situată pe locul al 6- lea în şirul ordonat [(11 + 1)/2 = 6] Dacă valorile ordonate sunt în număr cu soţ, mediana se va găsi la mijlocul şirului, între două valori consecutive Fie datele ordonate: 3, 4, 4, 5, 6, 7, 7, 8, 8, 9; deci 10 valori Mediana se va găsi pe locul 5,5 deoarece (N + 1)/2 este în cazul acesta (10 + 1/2) adică 5,5 Căutând în şirul dat valoarea situată pe locul 5,5 constatăm că ea se găseşte între două valori consecutive:6 şi 7 În consecinţă vom face media celor două valori: med va fi egală cu 6,5 Tabelul 2 Calculul medianei în cazul datelor grupate Intervalxkffc 24-2625 1 51 21-2322 3 50 18-20 19 4 47 15-1716 10 43 12-1413 16 33 9-1110 9 17 6-87 5 8 3-54 3 3 i = 3N = 51 Când datele sunt grupate ca în tabelul 2 localizăm mai întâi intervalul în care se găseşte mediana luând ca reper N/2 În exemplul citat N/2 = 51/2 = 25,5 deci mediana se află în intervalul (12 - 14) ale cărui limite exacte sunt 11,5 şi 14,5 (variabila fiind considerată continuă) Formula care ne dă valoarea medianei este următoarea: în care: l este limita inferioară a intervalului reperat, Fs este totalul frecvenţelor situate sub l (în exemplul dat 3 + 5 + 9 = 17), fi= frecvenţa corespunzătoare intervalului localizat, iar N şi i sunt notaţii cunoscute În exemplul ales vom avea: Spre deosebire de medie, mediana prezintă avantajul de a nu fi afectată de variaţiile extreme ale seriei, fapt care o face potrivită pentru studiul distribuţiilor asimetrice Exemplu de distribuţie asimetrică pentru care se pretează cercetarea medianei (extras din lucrarea de licenţă a absolventei Guga Florentina), deşi teoretic poate fi calculată şi media, dar care este mai puţin stabilă Figura 2 Diagrama de distributie a scorurilor obţinute de subiecţii lotului 2 (Şcoala Generală nr 9) la proba MPc Raven Pentru a clarifica problema diferenţelor posibile între medie şi mediană în cazul distribuţiilor asimetrice, iată că folosind datele de la exemplul de mai sus au fost cercetaţi indicatorii descriptive ai eşantionului de date colectate, pentru care a fost folosit tabelul extras din programul SPSS, pentru exemplificare: Tabelul 3 Indicatori descriptivi pentru MPc Raven (Şcoala Generală nr 9) StatisticStd Error VAR00001Mean 30,4688,6460 95% Confidence Interval for MeanLower Bound29,1512 Upper Bound31,7863 5% Trimmed Mean 30,7361 Median 32,0000 Variance 13,354 Std Deviation 3,6543 Minimum 20,00 Maximum 35,00 Range 15,00 Interquartile Range 5,7500 Skewness -1,037,414 Kurtosis ,700,809 Din tabelul 3 (de mai sus) se constată că media scorurilor brute la testul de inteligenţă MPc Raven colectate de la elevii din Scoala Gen Nr 9 este 30,4688, iar mediana (în tabel median) este 32,0000 De menţionat că în mod curent se folosesc două valori după virgulă (adică două zecimale) Se constată că este diferenţă între medie şi mediană, dar decizia tipului de test statistic se va lua după aprecierea celorlalte variabile ale cercetării În cazul de faţă se constată că cele două valori, deşi nu sunt identice ar putea fi considerate apropiate Iată de ce pentru distribuţiile asimertice se preferă mediana (med), care este diferită de (medie) şi are stabilitate mai ridicată Modul este valorea care se repetă mai des într-un şir de rezultate, adică valoarea care prezintă frecvenţa cea mai mare De exemplu, în seria de date 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, modul este 7, deoarece 7 este valoarea cu frecvenţa cea mai mare Când datele sunt grupate, modul este clasa care reuneşte cei mai mulţi din subiecţi, mai precis - valoarea centarală a acestei clase De exemplu, în tabelul 3 2 , clasa care întruneşte frecvenţa maximă este 12 – 14, a cărei valoare centrală este 13 După cum se vede, modul poate fi determinat prin simpla examinare a valorilor, fără să fie necesare operaţii de calcul Ca indice al tendinţei centrale, modul este foarte aproximativ şi se ia în considerare mai ales la prima inspecţie a datelor În cazul distribuţiilor simetrice (normale) media, mediana şi modul coincid sau prezintă valori foarte apropiate Exemple de diagrame de distribuţie pentru două eşantioane cercetate cu două instrumente de evaluare psihologică, MPc Raven (Matricile Progresive color Raven) şi T:A C (Test de anxietate pentru copii) Figura 1 Diagrama de distributie a scorurilor obţinute de subiecţii lotului 1 Centrul de plasament ”Speranţa” la proba MPc Raven Figura 2 Diagrama de distributie a scorurilor obţinute de subiecţii lotului 2 Şcoala Generală nr 9, la proba MPc Raven Figura 3 Diagrama de distributie a scorurilor obţinute de subiecţii lotului 1 Centrul de Plasament “Speranţa” , la proba T A C Figura 4 Diagrama de distributie a scorurilor obţinute de subiecţii lotului 22 Şcoala Generală nr 9, la proba T A C Tabel nr 4 Indici statistici de start pentru Lotul 1 PROBEINDICI STATISTICI Nvaloarea minimăValoarea maximă Matrici Progresive Colorate Raven32 24,533,811833 Test de Anxietate pentru Copii329,033,16215 Testul de desen Goodenough-Harris3227,817,431641 Tabelul 5 Indici statistici de start pentru Lotul 2 PROBEINDICI STATISTICI NValoarea minimăValoarea maximă Matrici Progresive Colorate Raven32 30,473,652035 Test de Anxietate pentru Copii326,092,40111 Testul de desen Goodenough-Harris3233,477,671843 1 INDICATORI DE MĂSURĂ A IMPRĂŞTIERII 3 1 AMPLITUDINEA 3 2 QANTILE 3 3 DISPERSIA ŞI ABATEREA STANDARD 3 1 AMPLITUDINEA sau domeniul, notată cu R, este cea mai simplă măsură a împrăştierii datelor dintr-o colecţie de scoruri brute Amplitudinea se defineşte ca fiind diferenţa între cea mai mare şi cea mai mică valoare înregistrată sau observată Astfel, R =Xmax- Xmin Din tabelul 4 şi 5 se pot extrage valorile minime şi Maxine şi calcula Amplitudinea (domeniul) pentru fiecare variabilă dată în table De regulă amplitudinea este afectată de fluctuaţiile de selecţie de la un eşantion la altul şi este de aşteptat ca odată cu mărirea numărului de observaţii să crească şi mărimea amplitudinii Dacă avem o colecţie de date cu privire la înălţimea eşantionului de adolescenţi (exprimată în cm) de forma: 148, 122, 156, 101, 167 168, 172, 123,145,166,154,199 se constată ca R = 199-101=98 cm în acest caz avem două valori foarte distanţate de restul , iar dacă le excludem din şir, atunci R =172-122=50 Se poate aprecia că această amplitudine este mai realistă, caracterizând majoritatea datelor Decizia de eliminate a unor date superioare sau inferioare se va lua, după limitele reale ale unei variabile data de intervalul de variaţie al unei scale, sau de extremitatea unor situaţii cu caracter aberant Amplitudinae nu ţine cont de tipul sau forma repartiţiei aşa că poate fi calculată pentru distribuţii simetrice sau asimetrice 3 2 QUANTILE O quantilă reprezintă o categorie a scalei de măsură care depăşeşte o proporţie precizată de observaţii Pornim de la definiţia medianei, care este asociată cu proporţia de ½, care simbolizează jumătatea, ce poate fi generalizată prin luarea în consideraţie şi a altor proporţii Astfel se obţine o clasă de indicatori numite qantile (cuantile sau cvantile), adică o înpărţire a observaţiilor în părţi egale Tabelul 1 Cele mai frecvente sisteme de quantile utilizate în psihologia apliactă Nr crt Număr de părţi egaleNumăr qantileDenumire 1 32Trecilă 2 43Quartilă 3 54Quintilă 4 65Sextilă 5 76Septilă 6 87Octilă 7 98Nonilă 8 109Decilă 9 10099Centilă Pentru exemplificare vom discuta cel mai frecventă quantilă , denumită qartilă sau qvartilă Sistemul determinat de quantilele de ordine 1/4, 2/4, 3/4 realizează teoretic o împărţire a observaţiilor în patru părţi egale Aceste qantile se numesc quartile şi sunt notate, cu Q1, Q2, Q3 Prin poziţia pe care o au qurtilele distribuţiei se poate aprecia împrăştierea datelor şi se pot efectua comparaţii între eşantioane sau variabile diferite Pentru a stabili limita fiecărui quantil se parcurg următorii paşi: * Se ordonează observaţiile ascendant; * Se stabilesc quantilele de ordin; * Se calculează valoarea observaţiei de rang Exemplu Pentru o colecţie de N = 125 de observaţii: * quantila de ordin 1/4 (prima qartilă) este valoarea observaţiei de rang k= [(1/4) x 125] + 1 = 31,25+1=32,25 şi se acceptă valoarea întreagă cea mai apropiată adică 32; * quantila de ordin 2/4 (a doua qartilă) este valoarea observaţiei de rang k= [(2/4) x 125] + 1 = 62,50+1=63,50 şi se acceptă valoarea întreagă cea mai apropiată adică 64; * quantila de ordin 3/4 (a treia qartilă) este valoarea observaţiei de rang k= [(3/4) x 125] + 1 = 93,75+1=94,75 şi se acceptă valoarea întreagă cea mai apropiată adică 95 Pentru a stabili cele 4 (patru) părţi egale ale colecţiei formate din N=125 observaţii se caută limitele de interval ale colecţiei de date astfel: 1 de la prima valoare ordonată ascendant la a 32-a valoare din şir; 1 de la a 33-a valoare la a 64-a valoare din şir; 1 de la a 65 valoare la a 95-a valoare din şir; 1 de la a 66 valoare la 125-a valoare (ultima) din şir Acelaşi criteriu de lucru se va utilize indifferent de sistemul de cuantile utilizat, cu remarca de a se stabili cuantilele de ordin pentru fiecare tip de cuantil Atenţie Utilizarea decilelor si mai ales a centilelor este justificată atunci când volumul eşantionului este sufficient de mare Este nefolositor şi fărăsens să calculăm decilele sau mai ales centilele unei distribuţii de 50 de elemente 3 3 DISPERSIA ŞI ABATEREA STANDARD Media, mediana şi modul caracterizează un singur aspect al distribuţiei statistice: tendinţa generală a datelor Este necesar să cunoaştem şi modul în care se repartizează diferite rezultate în jurul "valorii centrale", adică organizarea interioară a distribuţiei De exemplu, două distribuţii statistice - cum sunt cele redate în figura 1 - pot avea aceeaşi medie, dar ele să fie totuşi foarte diferite sub aspectul variabilităţii, respectiv al omogenităţii Figura 1 Reprezentarea a două distribuţii simetrice cu medii egale cu variaţii diferite Se pune deci problema de a găsi indicatori prin intermediul cărora se poate măsura variaţia sau împrăştierea datelor în jurul mediei Aceşti indicatori sunt: dispersia (varianţa) şi abaterea standard Cu ajutorul lor se obţin informaţii asupra variabilităţii grupului studiat Dispersia şi abaterea standard Dispersia (varianţa) se notează cu σ2 sau cu s2 şi are ca formulă de definiiţie: în care (x-m) reprezintă abaterea fiecărei valori de la media calculată, iar N este efectivul grupei de măsurări Abaterea standard (abaterea medie pătratică sau abaterea tip) - care se notează cu σ sau cu s - nu este altceva decât rădăcina pătrată din valoarea dispersiei: Aşadar, pentru a determina abaterea standard trebuie oricum să aflăm mai întâi dispersia σ2 Indicele de dispersie cel mai exact şi mai des utilizat este de fapt abaterea standard, având avantajul de a fi exprimat în aceleaşi unităţi ca şi datele iniţiale pe care le prelucrăm De exemplu, dacă studiul se bazează pe note, abaterea standard este exprimată tot în note, permiţând să se analizeze mai corect gradul de variabilitate al grupului Abaterea standard (abaterea medie pătratică sau abaterea tip) se foloseşte, de asemenea, în discutarea distribuţiilor normale Dispersia are avantajul de a nu cuprinde radicalul în expresia ei algebrică şi astfel se pretează mai uşor la calcule teoretice Dacă analizăm formula de definiţie a dispersiei ne dăm seama că numai expresia de la numărător, adică suma pătratelor abaterilor de la medie, ridică probleme mai dificile pentru calcul Vom numi pe scurt această expresie suma pătratelor Determinarea sumei pătratelor nu se face utilizând expresia de definiţie Σ(x-m)2 deoarece comportă operaţii laborioase şi de cele mai multe ori cu numere zecimale Transformând expresia de definiţie, se obţine o formulă convenabilă de calcul: în care notaţiile sunt deja cunoscute Σx2 reprezintă totalul pătratelor celor N rezultate (valori) care compun grupul iniţial de date Formula de calcul a dispersiei devine astfel: De notat că T2 şi Σx2 sunt valori cu totul diferite, ceea ce se poate verifica în tabelul 3 3 În ceea ce priveşte determinarea disprsiei, având datele grupate, ne referim din nou la cele două metode utilizate pentru calculul mediei Metoda de calcul ilustrată prin tabelul 3 3, ne-a condus la determinarea lui T prin însumarea produselor fxx, ştiind că Σfxx'T Ridicând acum la pătrat pe T şi împărţind apoi cu N (efectivul grupei), avem stabilit T2/N din formula de calcul a sumei pătratelor stabilită mai sus Ne rămâne să calculăm doar Σx2 Pentru aceasta la tabelul care a condus la determinarea lui T mai adăugăm o coloană fxx2 în care vom înscrie produsele (fxx) x x (adică produsele fxx notate în coloana precedentă se mai înmulţesc o dată cu valorile x) Pentru ilustrare să urmărim exemplul din tabelul 3 3 Tabelul 3 3 Note, xffxx(fxx)xx 32618 42832 531575 6742252 71070490 8864512 9436324 10220200 N = 38T = 261∑x2 = 1903 Însumând produsele înscrise în coloana (f x x) x x sau, pe scurt fxx2, se obţine Σx2 şi în felul acesta avem asigurate toate elementele necesare pentru determinare sumei pătratelor potrivit formulei Exemplul ales constituie oarecum un caz particular, având ca interval de grupare i = 1 Valorile centrale fx coincid cu valorile lui x Aceasta este situaţia seriilor de variaţie mai mici, când distanţa dintre valorile extreme nu este mai mare şi permite o grupare mai simplă a datelor (de pildă, în cazul notelor şcolare) Când intervalul de grupare este mai mare decât 1 şi lucrăm cu valori centrale xk, produsele vor fi fxxxxxk, adică fxxk2 Făcând înlocuirile necesare în exemplul dat vom avea: Pentru a determina dispersia sau varianţa, împărţim rezultatul obţinut la N - 1 În continuare extragem rădăcina pătrată din σ2 sau s2 şi obţinem abaterea tip: Se poate observa că pentru determinarea dispersiei în tabelul de calcul utilizat la medie se adaugă doar încă o coloană fxx2 Pentru uşurarea caculelor trebuie utilizate tabele matematice uzuale, care ne dau n2 şi pentru orice numere până la 10 000 În încheiere sunt necesare două precizări esenţiale: ● În prezent, determinarea indicilor statistici se face cu ajutorul calculatorului, care preia munca de rutină a cercetătorului Acesta din urmă decide însă ce indici va calcula, ce tabele şi grafice sunt necesare în funcţie de natura datelor, va întrevedea forma distribuţiei şi obiectivele cercetării Programele informatice aplicate vor sugera modul în care trebuie pregătit şi organizat materialul brut pentru prelucrarea statistică; psihologul - cercetător stăpâneşte datele de intrare şi "citeşte" datele de ieşire pe care le interpretează Pentru exemplificare reluăm: Tabelul 3 Indicatori descriptivi pentru MPc Raven (Şcoala Generală nr 9) StatisticStd Error VAR00001Mean 30,4688,6460 95% Confidence Interval for MeanLower Bound29,1512 Upper Bound31,7863 5% Trimmed Mean 30,7361 Median 32,0000 Variance 13,354 Std Deviation 3,6543 Minimum 20,00 Maximum 35,00 Range 15,00 Interquartile Range 5,7500 Skewness -1,037,414 Kurtosis ,700,809 Se observă că utilizarea programului statistic SPSS alţi doi indicatori: * Variance = dispersia (varianţa); * Std deviation = abaterea standard (abaterea medie pătratică sau abaterea tip) Dacă inspectăm valorile marcate constatăm că , adică 3,6543 = radical pătrat din 13, 354 Iată de ce în tabelul de mai jos cu indici statistici de start pentru lotul 2 vei identifica principalii indicatori ai cercetării, care au doar valoare descriptivă şi orientativă pentru aprecierea scorurilor brute înregistrate prin colectarea datelor, care pregătesc gândirea psihologică cu privire ma metodologia statistică de verificare statistică a ipotezelor formulate (vezi cei marcaţi în tabelul 5, cel de mai jos) Tabelul 5 Indici statistici de start pentru Lotul 2 PROBEINDICI STATISTICI NValoarea minimăValoarea maximă Matrici Progresive Colorate Raven32 30,473,652035 Test de Anxietate pentru Copii326,092,40111 Testul de desen Goodenough-Harris3233,477,671843 ● Datele numerice sunt culese pe loturi sau grupuri extrase dintr-o colectivitate mai largă numită populaţie Elementele unui lot sau grup trebuie alese după regulile selecţiei aleatoare pentru a putea formula concluzii valabile Notăm indicii obţinuţi pe eşantion cu şi respectiv cu SEMNIFICAŢIA ABATERII STANDARD Distingem: σ abaterea standard în populaţie; abaterea standard obţinută pe o colecţie de date (eşantion dintr-o populaţie) Distingem, de asemenea, variabilitatea inter-individuală (între indivizi) şi variabilitatea intraindividuală (pentru acelaşi individ) De exemplu, distribuţia CI pe o colectivitate reflectă varianţa inter iar distribuţia timpilor de reacţie la un singur individ arată varianţa intra Fenomenul variabilităţii inter şi intra este atât de obişnuit şi nu ne mai întrebăm asupra cauzei sau sursei deoarece se îmbină aici mai multe surse Abaterea standard poate fi luată ca unitate de măsură pe abscisa unui poligon sau a unei curbe de frecvenţă, în cazul unei histograme experimentale simetrice Dorim deci, să luăm abscisa în unităţi Pentru aceasta pornim de la medie în dreapta şi în stânga Adăugăm 1=5 la =25 şi obţinem 30 Distanţa dintre 25 şi 30 este de 1, ea are o întindere de 5 unităţi brute La fel este situat 35 la distanţa de +2 deasupra mediei şi-i corespunde o întindere în unităţi brute de 10 Mai adăugăm 1 la 35 şi obţinem 40; observăm că distanţa totală între şi 40 este de +3 Într-o distribuţie simetrică ideală, aproximativ 3 acoperă distanţa între m şi cota cea mai mare a distribuţiei În acelaşi fel procedăm în partea stângă, adică sub medie Scădem succesiv 5 din 25, şi apoi 5 din 20, şi 5 din 15, adică întâi -1 apoi -2 şi -3 Deci într-o distribuţie simetrică tipică există numai aproximativ 3 deasupra mediei şi -3 sub medie, ceea ce putem scrie (3 Înseamnă că amplitudinea sau întinderea variaţiei - notată cu V - este de aproximativ 6 sau că abaterea standard este a şasea parte din V Abaterea standard devine o unitate de măsură pentru întinderea variaţiei Relaţia arătată se verifică pe măsură ce N creşte (de exemplu la N = 50, raportul V/ este de cca 4,5, la N = 90, raportul devine 5 etc) Să reţinem două idei: * măsoară distanţa la care se află o cotă brută oarecare în raport cu , * devine unitate de măsură pentru V (varianţă) În practică, este necesară utilizarea unor registre diferite de variaţie De exemplu în cazul inteligenţei se operează în mod curent cu registrul 70-140, într-o probă de memorie se obţin valori între 2-12, în cazul măsurării timpului de reacţie se înregistrează fracţiuni de secundă Se pune problema comparării şi combinării acestor date heterogene Soluţia este oferită de cotele z Cote z O distanţă, un interval dat în cote brute poate fi exprimat în unităţi , împărţind distanţa respectivă (x-) cu În felul acesta avem un punct de referinţă zero Luând drept unitate trecem de la cotele brute x la cote transformate z Această nouă variabilă z se numeşte variabilă standardizată Cota z: o valoare care ne arată cât se distanţează, în unităţi , o cotă brută de media distribuţiei respective Formula de trecere de la variabila brută x la variabila normată sau standardizată z este următoarea: Într-o distribuţie tipic normală, în care există trei abateri standard deasupra mediei şi trei dedesubt, cea mai mare cotă z pe care o putem obţine este + 3, iar cea mai mică - 3 Amplitudinea cotelor z este între + 3 şi - 3 trecând evident prin zero Exemplu: Avem un test de inteligenţă şi altul de aptitudine mecanică Rezultatul final condensat este: Tabelul 3 5 Indicatori de start Indicatori de start Variabile Aptitudinea mecanică10010 Inteligenţă606 Transpunerea cotelor brute x în cote z permite compararea lor directă Cu ajutorul cotelor z avem abaterea unei valori de la medie în termeni de unităţi Odată cu acestea, variabile diferite sunt aduse la un numitor comun, fiind exprimate în aceleaşi unităţi, devin deci comparabile Media şi abaterea standard servesc la interpretarea datelor; semnificaţia lor se stabileşte în cadrul unor raţionamente bine precizate, care vor fi prezentate în Statistica inferentială În încheiere trebuie să precizăm că valorile caracteristice studiate nu se determină pentru orice distribuţie statistică, de aceea: 1 Dacă distribuţia scorurilor brute este simetrică (normală sau aproape normală), se deterină media, dispersia şi abaterea standard; dacă distribuţia este asimetrică, se determină mediana 1 În cazul distribuţiilor particulare, în formă de i sau j de exemplu, este bine să ne mulţumim cu un grafic (P Fraisse, 1963) şi să determinăm modul, respectiv frecvenţa 3 4 FRECVENŢA Alături de medie şi abaterea standard, un indice statistic adesea utilizat este frecvenţa Într-o colecţie de date, fiecare element fie că prezintă o caracteristică A, fie că nu Notăm cu N efectivul total al unui grup şi cu n numărul de elemente care prezintă caracteristica A Frecvenţa caracteristicii A în lotul studiat este n din N sau n/N, care se mai numeşte şi frecvenţă relativă Se vorbeşte, de pildă, de frecvenţa accidentelor de circulaţie, clasificându-le după diferite criterii, sau de frecvenţa muncitorilor accidentaţi într-o uzină ş a m d De asemenea, când se aplică un test se vorbeşte de frecvenţa persoanelor care au obţinut un anumit rezultat, o cotă determinată Procentajele se obţin plecând de la frecvenţe conform formului: n/N x 100 Exemplu (după Faverge): Într-o statistică asupra erorilor de la casierie, s-au observat 134 erori în plus şi 289 erori în minus Frecvenţa f a erorilor în plus este: f = 134/423 = 0,32; (423 = 134 + 289) De reţinut: distincţia dintre frecvenţe absolute sau efective - notate, de regulă, cu n - şi frecvenţe relative sau proporţii, notate cu f În exemplul de mai sus se poate urmări modul de trecere de la frecvenţa absolută la cea relativă Exemplul 1 este selectat din lucrarea de licenţă a absolventului Viziteu Bogdan, care a cercetat frecvenţa atributelor cu referire la sine pe sexe şi clase În figura de mai jos a fost întocmită diagrama cu frecvenţa atributelor despre sine pe sexe şi clase SHAPE \* MERGEFORMAT Figura 1 Frecvenţele atributelor despre sine, pe clase şi sexe Pentru verificarea primei ipoteze s-a utilizat testul χ2 cu corecţia de continuitatea a lui Yates pentru tabele de frecvenţă 2x3 (tabelul 2), pentru a stabili dacă există diferenţe semnificative între băieţi şi fete, pe clase cu privire la volumul atributelor referitoare la sine Tabelul 2 Compararea frecvenţelor atributelor despre Sine între băieţi şi fete, pe calse ClasaSexTotalχ2(2)p BăieţiFete 160,243 0,000 foftRfoftR a XI-a761696,384,1668732,61-4,11429 a X-a531733,91-12,6975772,0812,61506 a IX-a1092953,698,18651003,30-8,11957 Total238425084892 Legendă: fo = frecvenţă observată (înregistrată direct prin numărarea evenimentelor, după un criteriu stabilit) ft = frecvenţă teoretică (cea matematic calculată, asupra căreia se va reveni la statistică inferenţială) p = prag de semnificaţie R = rezidul standardizat Din tabelul 2 se constată că valoarea calculată χ2(2) = 160,243 este semnificativă statistic la pragul p < 0,01 Astfel, se poate conchide că ipoteza 1 se confirmă, deci există diferenţe semnificative între băieţi şi fete pe clase cu privire la volumul atributelor referitoare la sine, în favoarea băieţilor la clasele a IX şi a XI-a şi în favoarea felelor la Clasa a X-a Statistica de mai sus are caracter demonstrativ cu privire la utilitatea şi modalitatea de studiu asupra careia se va reveni Exemplul 2 este selectat din lucrarea de licenţă a absolventei Rotar Cristina care a cercetat, factorii pulsionali ai Eului la alcoolicii cu ascendenţi şi fără ascendenţi potatorii Metoda de evaluarea psihologică a fost Testul proiectiv Szondi Pentru exemplul de mai jos a fost selectat şi prezentat doar Facorul pulsional Sch Ipoteza 2 Există diferenţe semnificative între pacienţii diagnosticaţi cu alcoolism cronic care au ascendenţi consumatori de alcool faţă de pacienţii diagnosticaţi cu alcoolism cronic care nu au ascendenţi consumatori de alcool, cu privire la factorii pulsionali ai Eu-lui Pentru verificarea acestei ipoteze s-a utilizat testul (2 pentru fiecare factor pulsional în parte Tabelul 4 Compararea frecvenţelor alegerilor alcoolicilor cronici pentru Factorul pulsional Sch Alcoolici cronici Total (2 p gl Cu ascendenţiFără ascendenţi f(o)f(t)f(o)f(t) 3,66 8,525 0,23 0,03 ** 2 2 Sch k p( + )87,577,515 ( - )1314151428 ( + / - )128,558,517 Total3330273060 ( + )1412,51112,525 ( - )1012141224 ( + / - )95,525,511 Total3330273060 ** p < 0,05 Tabelul 4 ne ilustrează frecvenţele de răspuns ale subiecţilor pentru vectorul pulsional Sch (Schizofrenic), constatându-se în urma aplicării testului (2 existenţa diferenţei statistic semnificative între alcoolici cronici cu ascendenţi faţă de alcoolici cronici fără ascendenţi în ceea ce priveşte factorul pulsional p (paranoic) al vectorului Sch Factorul p se referă la nevoia de comunicare a sistemului de trebuinţe cu lumea, tendinţa dinamică expansivă a organismului de transgresare a propriilor frontiere şi de descărcare a trebuinţelor prin contactul cu obiectele din ambianţă El lărgeşte dimensiunile Eului, obligând individul să caute obiectele adecvate care îi pot servi ca mijloace de satisfacere a trebuinţelor sale, Eul fuzionează cel puţin temporar cu aceste obiecte din mediu Concluzii Caracterizarea datelor cuantificate prin scale de interval se realizează prin intermediul unui set de indici descriptivi incadraţi în două categorii: indicii tendinţei centrale, respectiv ai variabilităţii În prima categorie sunt incluşi: media, mediana, respectiv modul În a doua categorie se pot menţiona: dispersia (varianţa) şi abaterea standard Cotele z permit exprimarea datelor în funcţie de medie şi abaterea standard şi asigură cuantificarea în unităţi standard În cazul scalelor nominale sau ordinale se utilizează ca indice descriptiv frecvenţa (observată şi teoretică) Bibliografie Faverge, J M (1965) Méthodes statistiques en psychologie appliquée t I Paris, P U F Jaccard J & Becker, M (1997) Statistics for the behavioral sciences (third edition), Brooks, Cole Publishing Company, Pacific Grove Rouanet, H , Le Roux, B , Best, C (1987) Statistique en sciences humaines: procedures naturelles, Paris, Bordas Spence, J , Underwood, B J , Duncan, C P , Cotton, J W (1968) Elementary statistics, New York, Appleton 